26 research outputs found
Using the fisher vector approach for cold identification
In this paper, we present a computational paralinguistic method for assessing whether a person has an upper respiratory tract infection (i.e. cold) using their speech. Having a system that can accurately assess a cold can be helpful for predicting its propagation. For this purpose, we utilize Mel-frequency Cepstral Coefficients (MFCC) as audio-signal representations, extracted from the utterances, which allowed us to fit a generative Gaussian Mixture Model (GMM) that serves to produce an encoding based on the Fisher Vector (FV) approach. Here, we use the URTIC dataset provided by the organizers of the ComParE Challenge 2017 of the Interspeech Conference. The classification is done by a linear kernel Support Vector Machines (SVM); owing to the high imbalance of classes on the training dataset, we opt for undersampling the majority class, that is, to reduce the number of samples to those of the minority class. We find that applying Power Normalization (PN) and Principal Component Analysis (PCA) on the Fisher vector features is an effective strategy for the classification performance. We get better performance than that of the Bag-of-Audio-Words approach reported in the paper of the challenge
Adaptation of Speaker and Speech Recognition Methods for the Automatic Screening of Speech Disorders using Machine Learning
This PhD thesis presented methods for exploiting the non-verbal communication of individuals suffering from specific diseases or health conditions aiming to reach an automatic screening of them. More specifically, we employed one of the pillars of non-verbal communication, paralanguage, to explore techniques that could be utilized to model the speech of subjects. Paralanguage is a non-lexical component of communication that relies on intonation, pitch, speed of talking, and others, which can be processed and analyzed in an automatic manner. This is called Computational Paralinguistics, which can be defined as the study of modeling non-verbal latent patterns within the speech of a speaker by means of computational algorithms; these patterns go beyond the linguistic} approach.
By means of machine learning, we present models from distinct scenarios of both paralinguistics and pathological speech which are capable of estimating the health status of a given disease such as Alzheimer's, Parkinson's, and clinical depression, among others, in an automatic manner
Slerosis multiplex felismerése spontán beszédből wav2vec 2.0 modellekből kinyert jellemzőkkel
A slerosis multiplex (SM) a központi idegrendszer krĂłnikus gyulladásos megbetegedĂ©se. Mivel az SM többek között az alanyok beszĂ©dĂ©t is befolyásolja, az automatikus beszĂ©delemzĂ©s egyszer¶, relatĂve ol sĂł Ă©s találkozásmentes (távoli) mĂłdot kĂnálhat a beszĂ©dproduk iĂł változásainak detektálására. Egy ilyen automatikus elemz® eljárás fejlesztĂ©sĂ©nek során azonban kritikusnak bizonyulhat, hogy milyen jellemz®ket nyerĂĽnk ki a beszĂ©dproduktumbĂłl. CikkĂĽnkben tĂz wav2ve 2.0 modell segĂtsĂ©gĂ©vel számĂtunk jellemz®ket, az Ăgy kapott osztályozási eredmĂ©nyeket pedig nagymennyisĂ©g¶ adaton tanĂtott publikus, valamint kevesebb, de magyar nyelv¶ adaton magunk által tanĂtott x-vektor neurális hálĂłk használatával kapott eredmĂ©nyekkel is összevetjĂĽk. KĂsĂ©rleteinkben a többnyelv¶ fonetikus kĂ©szletre tanĂtott wav2ve 2.0 modellek hatĂ©konyabbnak bizonyultak, mint az alap (ďż˝baseďż˝) modellek. A legfontosabb attribĂştumnak ugyanakkor a modell paramĂ©terszáma t¶nik: a legjobb eredmĂ©nyt az egymilliárd tanĂthatĂł paramĂ©terrel bĂrĂł modell adta. Emellett azt találtuk, hogy a modell ďż˝nomhangolása a Ă©lnyelvre (esetĂĽnkben a magyarra) javĂt az eredmĂ©nyeken, ugyanakkor (legalábbis kĂsĂ©rleti eredmĂ©nyeink alap ján) más nyelvre ďż˝nomhangolni nem Ă©rdemes. Meglep® mĂłdon nem sikerĂĽlt viszont tĂşlszárnyalnunk az x-vektorok teljesĂtmĂ©nyĂ©t, mely vĂ©lemĂ©nyĂĽnk szerint valĂłszĂn¶leg a keretszint¶ beágyazások bevett, de talán tĂşlságosan egyszer¶ felvĂ©telszint¶ aggregá iĂł jának tudhatĂł be
Enyhe kognitĂv zavar automatikus felismerĂ©se szekvenciális autoenkĂłder használatával
Az enyhe kognitĂv zavar (EKZ) hetegorĂ©n klinikai szindrĂłma. FĹ‘bb tĂĽnetei közĂ© tartozik a memĂłria, a gondolkodás, az Ă©rvelĂ©s Ă©s a nyelvi kĂ©pessĂ©gek romlása, amely azonban nem okoz jelentĹ‘s zavart a páciensek mindennapi Ă©letviteĂ©lben. A hanyatlás enyhe foka Ă©s a lappangĂł tĂĽnetek miatt azonban az EKZ diagnosztizálása nagyon gyakran ĂĽtközik nehĂ©zsĂ©gekbe. Ebben a tanulmányban szekvenciális autoenkĂłdert használunk a jellemzĹ‘knyerĂ©shez, hogy robusztus Ă©s hatĂ©kony attribĂştumokat extraktálhassunk. A felhasznált adadtbázis 25 EKZ-s alany Ă©s 25 egĂ©szsĂ©ges kontrollszemĂ©ly hanganyagait tartalmazza. EredmĂ©nyeink alapján ez a megközelĂtĂ©s versenykĂ©pes teljesĂtmĂ©nyt nyĂşjt: egy nagyobb adatbázison tanĂtott x-vektor hálĂłval szemben is kĂ©pes jobb eredmĂ©nyeket nyĂşjtani. További kĂsĂ©rleteinkben enyhe Alzheimer-kĂłrban (eAK) szenvedĹ‘ alanyokat is megprĂłbáltuk elkĂĽlönĂteni